home *** CD-ROM | disk | FTP | other *** search
/ CU Amiga Super CD-ROM 19 / CU Amiga Magazine's Super CD-ROM 19 (1998)(EMAP Images)(GB)[!][issue 1998-02].iso / CUCD / Online / RFCs / rfc / rfc1297.txt < prev    next >
Text File  |  1994-10-27  |  33KB  |  675 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7. Network Working Group                                         D. Johnson
  8. Request for Comments: 1297                           Merit Network, Inc.
  9.                                                             January 1992
  10.  
  11.  
  12.              NOC Internal Integrated Trouble Ticket System
  13.                    Functional Specification Wishlist
  14.                         ("NOC TT REQUIREMENTS")
  15.  
  16. Status of the Memo
  17.  
  18.    This memo provides information for the Internet community.  It does
  19.    not specify an Internet standard.  Distribution of this memo is
  20.    unlimited.
  21.  
  22. Abstract
  23.  
  24.    Professional quality handling of network problems requires some kind
  25.    of problem tracking system, herein referred to as a "trouble ticket"
  26.    system.  A basic trouble ticket system acts like a hospital chart,
  27.    coordinating the work of multiple people who may need to work on the
  28.    problem.
  29.  
  30.    Once the basic trouble ticket system is in place, however, there are
  31.    many extensions that can aid Network Operations efficiency.
  32.    Information in the tickets can be used to produce statistical
  33.    reports.  Operator efficiency and accuracy may be increased by
  34.    automating trouble ticket entry with information from the network
  35.    Alert system.  The Alert system may be used to monitor trouble ticket
  36.    progress.  Trouble tickets may be also used to communicate network
  37.    health information between NOCs, to telcom vendors, and to other
  38.    internal sales and engineering audiences.
  39.  
  40.    This document explores competing uses, architectures, and desirable
  41.    features of integrated internal trouble ticket systems for Network
  42.    and other Operations Centers.
  43.  
  44. Introduction
  45.  
  46.    This RFC describes general functions of a Trouble Ticket system that
  47.    could be designed for Network Operations Centers.  The document is
  48.    being distributed to members of the Internet community in order to
  49.    stimulate discussions of new production-oriented operator-level
  50.    application tools for network operations.  Hopefully, this will
  51.    result both in more ideas for improving NOC performance, and in more
  52.    available tools that incorporate those ideas.
  53.  
  54.  
  55.  
  56.  
  57.  
  58. Johnson                                                         [Page 1]
  59.  
  60. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  61.  
  62.  
  63. PURPOSES OF A NOC TROUBLE TICKET SYSTEM
  64.  
  65.    A good Network Operations Trouble Ticket System should serve many
  66.    purposes:
  67.  
  68.       1) SHORT-TERM MEMORY AND COMMUNICATION ("Hospital Chart").  The
  69.       primary purpose of the trouble ticket system is to act as short-
  70.       term memory about specific problems for the NOC as a whole.  In a
  71.       multi-operator or multi-shift NOC, calls and problem updates come
  72.       in without regard to who worked last on a particular problem.
  73.       Problems extend over shifts, and problems may be addressed by
  74.       several different operators on the same shift.  The trouble ticket
  75.       (like a hospital chart) provides a complete history of the
  76.       problem, so that any operator can come up to speed on a problem
  77.       and take the next appropriate step without having to consult with
  78.       other operators who are working on something else, or have gone
  79.       home, or are on vacation.  In single-room NOCs, an operator may
  80.       ask out loud if someone else knows about or is working on a
  81.       problem, but the system should allow for more formal communication
  82.       as well.
  83.  
  84.       2) SCHEDULING and WORK ASSIGNMENT.  NOCs typically work with many
  85.       simultaneous problems with different priorities.  An on-line
  86.       trouble ticket system can provide real time (or even constantly
  87.       displayed and updated) lists of open problems, sorted by priority.
  88.       This would allow operators to sort their work at the beginning of
  89.       a shift, and to pick their next task during the shift.  It also
  90.       would allow supervisors and operators to keep track of the current
  91.       NOC workload, and to call in and assign additional staff as
  92.       appropriate.
  93.  
  94.       It may be useful to allow current priorities of tickets change
  95.       according to time of day, or in response to timer alerts.
  96.  
  97.       3) REFERRALS AND DISPATCHING.  If the trouble ticket system is
  98.       thoroughly enough integrated with a mail system, or if the system
  99.       is used by Network Engineers as well as Network Operators, then
  100.       some problems can be dispatched simply by placing the appropriate
  101.       Engineer or Operator name in an "assigned to" field of the trouble
  102.       ticket.
  103.  
  104.       4) ALARM CLOCK.  Typically, most of the time a trouble ticket is
  105.       open, it is waiting for something to happen.  There should almost
  106.       always be a timer associated with every wait.  If a ticket is
  107.       referred to a phone company, there will be an escalation time
  108.       before which the phone company is supposed to call back with an
  109.       update on the problem.  For tickets referred to remote site
  110.       personnel, there may be other more arbitrary timeouts such as
  111.  
  112.  
  113.  
  114. Johnson                                                         [Page 2]
  115.  
  116. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  117.  
  118.  
  119.       "Monday morning".  Tickets referred to local engineers or
  120.       programmers should also have timeouts ("Check in a couple of days
  121.       if you don't hear back from me").  A good trouble ticket system
  122.       will allow a timeout to be set for each ticket.  This alarm will
  123.       generate an alert for that ticket at the appropriate time.
  124.       Preferably, the system should allow text to be attached to that
  125.       timer with a shorthand message about what the alert involves
  126.       ("Remind Site: TT xxx") (The full story can always be found by
  127.       checking the trouble ticket).  These alerts should feed into the
  128.       NOC's standard alert system.
  129.  
  130.       The Alarm Clock can also assist (or enforce!) administrative
  131.       escalation.  An escalation timer could automatically be set based
  132.       on the type of network, severity of the problem, and the time the
  133.       outage occurred.
  134.  
  135.       5) OVERSIGHT BY ENGINEERS AND CUSTOMER/SITE REPRESENTATIVES.  NOCs
  136.       frequently operate more than one network, or at least have people
  137.       (engineers, customer representatives, etc) who are responsible for
  138.       subsets of the total network.  For these individual
  139.       representatives, summaries of trouble tickets can be filtered by
  140.       network or by node, and delivered electronically to the various
  141.       engineers or site representatives.  Each of these reports includes
  142.       a summary of the previous day's trouble tickets for those sites, a
  143.       listing of older trouble tickets still open, and a section listing
  144.       recurrent problems.  These reports allow the site reps to keep
  145.       aware the current outages and trends for their particular sites.
  146.       The trouble ticket system also allows network access to the the
  147.       details of individual trouble tickets, so those receiving the
  148.       general reports can get more detail on any of their problems by
  149.       referencing the trouble ticket number.
  150.  
  151.       6) STATISTICAL ANALYSIS.  The fixed-form fields of trouble tickets
  152.       allow categorizations of tickets, which are useful for analyzing
  153.       equipment and NOC performance.  These include, Mean Time Between
  154.       Failure and Mean Time to Repair reports for specific equipment.
  155.       The fields may also be of use for generating statistical quality
  156.       control reports, which allow deteriorating equipment to be
  157.       detected and serviced before it fails completely.  Ticket
  158.       breakdowns by network a NOC costs to be apportioned appropriately,
  159.       and help in developing staffing and funding models.  A good
  160.       trouble ticket system should make this statistical information in
  161.       a format suitable for spreadsheets and graphics programs.
  162.  
  163.       7) FILTERING CURRENT ALERTS.  It would be possible to use network
  164.       status information from the trouble ticket system to filter the
  165.       alerts that are displayed on the alert system.  For instance, if
  166.       node XXX is known to be down because the trouble ticket is
  167.  
  168.  
  169.  
  170. Johnson                                                         [Page 3]
  171.  
  172. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  173.  
  174.  
  175.       currently open on it, the alert display for that node could
  176.       automatically be acknowledged.  Trouble tickets could potentially
  177.       contain much further information useful for expert system analysis
  178.       of current network alert information.
  179.  
  180.       8) ACCOUNTABILITY ("CYA"), FACILITATING CUSTOMER FOLLOW-THROUGH,
  181.       AND NOC IMAGE).  Keeping user-complaint tickets facilities the
  182.       kind of follow through with end-users that generates happy clients
  183.       (and good NOC image) for normal trouble-fixing situations.  But
  184.       also, by their nature, NOCs deal with crises; they occasionally
  185.       find themselves with major outages, and angry users or
  186.       administrators.  The trouble ticket system documents the NOC's
  187.       (and the rest of the organization's) efforts to solve problems in
  188.       case of complaints.
  189.  
  190. FIXED FIELDS, FREE-FORM FIELDS, and TT CONFIGURATION
  191.  
  192.    Information in trouble tickets can be placed in either fixed or
  193.    freeform fields.  Fixed fields have the advantage that they can be
  194.    used more easily for searches.  A series of fixed fields also acts as
  195.    a template, either encouraging or requiring the operators to fill in
  196.    certain standard data.  Fixed fields can facilitate data verification
  197.    (e.g., making sure an entered name is in an attached contacts
  198.    database, or verifying that a phone number consists of ten numeric
  199.    characters).  Fixed fields are also appropriate for data that is
  200.    automatically entered by the system, such as the operator's login id,
  201.    the name of the node that was clicked on if the trouble ticket is
  202.    opened via an alert tool, or names and phone numbers that are
  203.    automatically entered into the ticket based on other entries (e.g.,
  204.    filling in a contact name and phone based on a machine name).
  205.  
  206.    Unfortunately, fixed fields work best where the problem-debugging
  207.    environment is uniform, well-understood, and stable; that is, trouble
  208.    tickets work best when their fields are well tailored to the specific
  209.    problem at hand.  It is easy to set up a large number of fields (or
  210.    even required fields) that are irrelevant to a given problem; this
  211.    slows down and confuses the operators.  Adding structure and validity
  212.    checking to a field tends to make the data more consistent and
  213.    reliable, but it also tends to force the operators into longer
  214.    procedures like menus to get the get the data accepted by the system.
  215.    It also forces there to be more maintenance on those verification
  216.    systems (adding new entries as they become new legal options), and in
  217.    some ways it reduces the accuracy of the system by forcing operators
  218.    to choose "canned" or authorized responses that may not always
  219.    represent the situation accurately.  Where statistical operational
  220.    reports are a primary purpose of the trouble ticket system, several
  221.    fixed fields may be appropriate.  If the primary intent of the system
  222.    is to keep notes for individual problems and to facilitate
  223.  
  224.  
  225.  
  226. Johnson                                                         [Page 4]
  227.  
  228. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  229.  
  230.  
  231.    communication between operators, then fixed fields may tend to be a
  232.    hindrance.  One reasonable guideline would be that fixed fields are
  233.    used ONLY where they are automatically filled in by the larger
  234.    system, or where the information in that field is explicitly used in
  235.    a report or standard search procedure.
  236.  
  237.    Because of this close relationship between the structure of the
  238.    ticket and the problem to be solved, it is very very useful to be
  239.    able to define different ticket types for different classes of
  240.    problems.  This becomes even more true for those many NOCs whose
  241.    staff are responsible for other types of operations: mainframe
  242.    operations, workstation administration, help desk functions, or any
  243.    of the other real-time response functions.  Network operations to
  244.    justify the expense of an operations center.  This kind of operation
  245.    makes economic sense, and is becoming more prevalent.  In these kinds
  246.    of situations it is vital that the same tools that are used for
  247.    network operations also be available for the other operations.  This
  248.    means that the trouble ticket configurations need to be modifiable by
  249.    local staff.  Commercial RDBMS forms builder and report generator
  250.    packages and "fourth-generation languages" offer a good start at
  251.    this, although it is sometimes difficult to integrate full trouble
  252.    ticket functionality through these systems.
  253.  
  254. TROUBLE TICKET STRUCTURE
  255.  
  256.    1) HEADERS.  Inevitably, a trouble ticket begins with a number of
  257.    fixed fields.  These generally include:
  258.  
  259.       Time and Date of problem start.
  260.       Initials or signon of the operator opening the ticket.
  261.       Severity of the problem  (possibly separating the "customer
  262.       severity" and the "NOC priority", since these could be different).
  263.       A one-line description of the problem for use in reports.
  264.  
  265.    There can be many other fixed fields for specific purposes.  There
  266.    may also be different kinds of tickets for different problems, where
  267.    the ticket format differs mainly in fixed fields.  These include:
  268.  
  269.       Who reported the problem?  (Name, organization, phone,
  270.                                                       email address)
  271.       Machine(s) involved.
  272.       Network involved (for multi-network NOCs).
  273.       User's machine address.
  274.       Destination machine address.
  275.       Next Action.
  276.       Time and date for alarm on this ticket.
  277.       Who should the ticket be dispatched to?
  278.       Ticket "owner" (one person designated to be responsible overall).
  279.  
  280.  
  281.  
  282. Johnson                                                         [Page 5]
  283.  
  284. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  285.  
  286.  
  287.    2) INCIDENT UPDATES.  The main body of trouble tickets is usually a
  288.    series of freeform text fields.  Optimally, each of these fields is
  289.    automatically marked with the time and date of the update, and with
  290.    the signon of the operator making the update.  Since updates are
  291.    frequently recorded sometime after the problem is fixed, however, it
  292.    is useful to allow the operators to override the current time stamp
  293.    with the time the update was actually made.  (In some
  294.    implementations, both times will be kept internally).
  295.  
  296.    The first incident update usually is a description of the problem.
  297.    Since the exact nature of the problem is usually not known when the
  298.    ticket is first opened, this description may be complex and
  299.    imprecise.  For problems that are reported by electronic mail, it is
  300.    useful to be able to paste the original message in the ticket,
  301.    particularly if it contains cryptic or extensive information (such as
  302.    a user's traceroute output).  At least one such arbitrarily-long
  303.    freeform field seems necessary to contain this kind of output,
  304.    although it is better to allow arbitrarily long messages at any stage
  305.    (e.g., so future complex messages can also be archived in the
  306.    ticket).
  307.  
  308.    Subsequent update fields may be as simple as "Called site;  no
  309.    answer".  Some systems allow these kinds of updates to be coded in
  310.    fixed fields; most use freeform text.
  311.  
  312.    There should always be an indication of what the next action for this
  313.    ticket ought to be.  Again, this may be implemented as a special
  314.    fixed field, or by convention of using the last line of text.
  315.  
  316.    Advanced systems may also need a facility to allocate the amount of
  317.    time a ticket is open between multiple sources.  A serious NOC will
  318.    want to use its trouble ticket system to statistically track its
  319.    performance on responding to problems. (e.g., Mean Time Between
  320.    Failure and Mean Time To Repair reports).  Frequently, though,
  321.    repairs are stopped at the customer's request.  ("It's not that
  322.    important a machine and I don't feel like coming in--can you defer it
  323.    until Monday Morning?").  In these cases the ticket needs to remain
  324.    open, but there needs to be a notation that the ticket is now in
  325.    "customer time" rather than "NOC time".  The durations of "customer
  326.    time" need to be excluded from MTBF and MTTR reports.  Complicated
  327.    repairs could move back and forth between "NOC time" "customer time"
  328.    repeatedly.  This probably implies that each Incident Update may have
  329.    a time and date of status change, and that these status changes can
  330.    be read and aggregated by by reporting programs.
  331.  
  332.    3) RESOLUTION DATA.  Once a problem is resolved, it is useful to
  333.    summarize the problem for future statistical analysis.  The following
  334.    fields have been found to be useful:
  335.  
  336.  
  337.  
  338. Johnson                                                         [Page 6]
  339.  
  340. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  341.  
  342.  
  343.       - Time and Date of resulation (for outage duration).
  344.       - Durations (can be calculated from time of resolution and
  345.         incident report "customer/NOC time" stamps).
  346.       - Resolution (one line of description of what happened, for
  347.         reports).
  348.       - Key component affected (for MTBF and similar reports).
  349.       - Checked By -- a field for supervisors to sign off on ticket
  350.         review.
  351.       - Escalated to -- for reports on how many problems require
  352.         non-NOC help.
  353.       - Temp - a database field that can be used to store temporary
  354.         "check marks" while making statistical investigations.
  355.  
  356. USER, TROUBLE, and ENGINEERING Ticket System(s)
  357.  
  358.    The primary level of an Network Operations trouble ticket is the
  359.    "problem" or "trouble": a single malfunctioning piece of hardware or
  360.    software that breaks at some time, has various efforts to fix it, and
  361.    eventually is fixed at some given time.
  362.  
  363.    The primary level of an Network Information Center ticket, however,
  364.    might well be the "user complaint".  A single network failure might
  365.    well produce a large number of individual user phone calls and hence
  366.    "user complaint" tickets.  A NIC may want to use tickets to track
  367.    each one of these calls, e.g., to make sure each user is informed and
  368.    satisfied about the eventual resolution of the single hardware
  369.    problem.
  370.  
  371.    In addition, NOCs (or Engineering Staffs) may want to track
  372.    systematic problems.  The staff may know, for instance, that a
  373.    particular router is old and fragile, or that a particular section of
  374.    their network doesn't have enough redundancy.  It may be useful to
  375.    open an "Engineering Ticket" on these known problems, providing a
  376.    place to record history and notes about the problem, for use in
  377.    further engineering or funding discussions.
  378.  
  379.    Even further "Meta" tickets could be described, having to do with
  380.    such issues as whether the current trouble ticket fields, reports,
  381.    and operation procedures were sufficient to handle current problems.
  382.  
  383.    It would be very convenient to be able to build all of these systems
  384.    on the same platform, and to allow each type of ticket to easily
  385.    reference other types.  Multiple "user complaint" tickets, then,
  386.    might might explicitly point to a single "trouble" ticket.  Multiple
  387.    trouble tickets representing independent failures would then point to
  388.    a single "engineering" ticket, which described the systematic
  389.    problem.  Multiple engineering tickets could point to a single "meta"
  390.    ticket, if appropriate.
  391.  
  392.  
  393.  
  394. Johnson                                                         [Page 7]
  395.  
  396. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  397.  
  398.  
  399. ASSISTED ENTRY AND DATA VERIFICATION
  400.  
  401.    Data (particularly in fixed fields) is only useful for searching if
  402.    it is entered in consistent formats.  A trouble ticket system needs
  403.    to help operators fill these fields with the correct format of
  404.    information.  This can be done using assisted entry (menus of
  405.    acceptable choices), verification routines which check against
  406.    internal lists or external databases (see next section), or other
  407.    computer checking.
  408.  
  409.    Some database systems allow a customized "help" screen to be
  410.    associated with each field, helping new (and experienced) operators
  411.    by making context-sensitive trouble ticket system documentation
  412.    available at every field.
  413.  
  414.    Very complicated help or operator-guidance systems can be built out
  415.    of Expert System technology.  This could be as simple as help
  416.    screens, or help screens with database information inserted (e.g.,
  417.    site contact names and phone numbers).  Or it could involve hints to
  418.    the operator, based on current network conditions.  Or it might even
  419.    ask the operator to run tests and to type in the results.  (See
  420.    EXPERT SYSTEMS, below).
  421.  
  422. INTEGRATION
  423.  
  424.    To be maximally efficient and useful, a Trouble Ticket system needs
  425.    to integrate well with most of the rest of the NOC tools.  These
  426.    include:
  427.  
  428.       1) OPERATOR WINDOW ENVIRONMENT.  A NOC Operator needs access to
  429.       many pieces of information simultaneously, and therefore is well
  430.       served by a good windowing environment.  The Trouble Ticket system
  431.       needs to run within this larger windowing system, so that the
  432.       operator can debug, consult databases, use Email, field alerts,
  433.       and keep an eye out for other emergencies while working on a
  434.       trouble ticket.  It is also useful to be able to run two trouble
  435.       ticket sessions simultaneously, for example, to allow an operator
  436.       to search for related tickets while he is in the middle of
  437.       updating another ticket.  Cut and Paste between these various
  438.       screens is mandatory, to allow easy recording of technical details
  439.       in the trouble tickets.
  440.  
  441.       2) ALERT MONITORING SYSTEM.  Trouble tickets are often opened in
  442.       response to machine alerts; it ought to be easy to open a trouble
  443.       ticket directly from the alert tool.  When a ticket is opened this
  444.       way, information about the alert and the machine involved ought to
  445.       be automatically filled into the ticket.  (There are various
  446.       opinions about whether trouble tickets ought to be opened
  447.  
  448.  
  449.  
  450. Johnson                                                         [Page 8]
  451.  
  452. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  453.  
  454.  
  455.       automatically without operator intervention.  This operator's
  456.       opinion is that an operator acknowledgement should be required,
  457.       but this point is debated enough that designers of a new system
  458.       probably should support either option).
  459.  
  460.       The Alarm Clock feature of the trouble ticket system also
  461.       generates alerts.  These alerts ought to feed gracefully into the
  462.       Alert Monitor system, so that the operators will get all of their
  463.       alerts from one place.
  464.  
  465.       3) DATABASE CONNECTIONS.  A good trouble ticketing system will
  466.       query NOC databases to automatically fill out trouble ticket
  467.       fields where possible.  This can be used for:
  468.  
  469.       - Filling out Network Operator information (e.g., phone number)
  470.         based on the NetOp's signon id.
  471.       - Filling in contact information based on machine name.
  472.       - Filling in circuit numbers based on link description.
  473.       - Filling in alarm clock or escalation time fields based on the
  474.         machine or link name and on time of day.
  475.       - Filling in machine serial numbers based on configuration database.
  476.  
  477.       4) MACHINE QUERYABLE INFORMATION.  It could also be possible for a
  478.       trouble ticket system to make standard queries of the network
  479.       itself when a trouble ticket is opened: e.g., the system could
  480.       request and store current machine configurations whenever a ticket
  481.       was opened for that machine.  On some systems, hardware serial
  482.       numbers are obtainable by software query directly to the machine.
  483.  
  484.       5) ELECTRONIC MAIL.  Problem notification often comes via
  485.       electronic mail; it must be possible to easily open a ticket and
  486.       include the original mail message within the ticket as part of the
  487.       initial problem description.  When extremely technical messages
  488.       come in from network engineers, it is useful to allow those
  489.       messages to be included verbatim, rather than forcing less
  490.       technical network operators to rephrase the messages or to force
  491.       them into predefined formats.  Later update messages should also
  492.       be easily includable.  Possibly: tickets could be opened
  493.       automatically for mail messages to certain mailboxes.  A response
  494.       system saying "Your request has been received and assigned ticket
  495.       number ####" might be desirable.
  496.  
  497.       Information within trouble tickets must also be easily available
  498.       (possibly just via the windowing system) for inclusion in Email
  499.       messages to engineers and others.
  500.  
  501.       Scheduled (e.g., daily) reports must also be easily generated into
  502.       the Email system.
  503.  
  504.  
  505.  
  506. Johnson                                                         [Page 9]
  507.  
  508. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  509.  
  510.  
  511.       6) DISPATCHING AND NOTIFICATION SYSTEMS.  An important real-time
  512.       aspect of Network Operations is notifying users, technical
  513.       contacts, and administrators of various classes of problems.  The
  514.       rules for who gets notified of what can be very arbitrary and
  515.       complex, and can involve electronic mail, notices in computer
  516.       conferences, automatic beeper pages, and synthesized voice
  517.       announcements.  It would be good for a trouble ticket system to
  518.       provide for automatic (or operator initiated) notification of the
  519.       appropriate channels for the current ticket (based on network,
  520.       machine, severity of problem, duration of the problem, escalation
  521.       guidelines, etc).
  522.  
  523.       Databases associated with the trouble ticket system may also have
  524.       lists of specific people to contact about outages for particular
  525.       machines.  These "who to inform" lists can facilitate customized
  526.       notification messages directly from the trouble ticket system.
  527.  
  528.       It may also be possible to dispatch experts directly from the
  529.       trouble tickets system.  IBM's ECCO system allows allows customers
  530.       to directly dispatch Service Engineers from machine interactions.
  531.       Many NOCs also use computer hooked to modems to automatically page
  532.       engineers.  This kind of dispatching should be available from
  533.       within the trouble ticket system (along with an automatic note
  534.       into the trouble ticket that the engineer has been dispatched).
  535.  
  536.       7) OTHER TROUBLE TICKET SYSTEMS.  When the NOC generates a trouble
  537.       ticket, it often immediately calls up a telco or another Internet
  538.       NOC, who proceed to open their own ticket.  The Internet
  539.       Engineering Task Force User Connectivity Working Group is also
  540.       proposing a national trouble ticket tracking system, which would
  541.       need updating from individual NOC trouble ticket systems.  A
  542.       state-of-the-art trouble ticket system could have provisions for
  543.       transferring tickets and ticket information in and out of other
  544.       such systems.
  545.  
  546.       8) NETWORK ACCESS.  Some older trouble ticket systems assumed that
  547.       anyone with a need to access the information would obtain a signon
  548.       and learn to use that system.  The range of people with a need for
  549.       trouble ticket information is now too great to allow this
  550.       assumption.  A good system now needs to be able to support network
  551.       query for tickets and summary reports, as well as Email delivery
  552.       of scheduled reports.
  553.  
  554.       9) SUBROUTINE INTERFACE.  To allow for ad-hoc and currently
  555.       unanticipated needs, the trouble ticket system needs to support a
  556.       full-function set of subroutine calls.  These subroutines will
  557.       allow construction of further trouble ticket functionality not yet
  558.       specified.
  559.  
  560.  
  561.  
  562. Johnson                                                        [Page 10]
  563.  
  564. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  565.  
  566.  
  567.       10) EXPERT SYSTEMS.  Network debugging is a very promising area
  568.       for expert system and artificial intelligence applications.  But
  569.       such an algorithm should require access to the alert monitoring
  570.       system, configuration and change control systems, to the network
  571.       itself, and also to the information in the trouble ticket system.
  572.       A good future system then needs to make this information available
  573.       (probably via the subroutine interface mentioned above), and to
  574.       also allow the Network Operators to invoke the artificially
  575.       intelligent debugging from within a trouble ticket (including its
  576.       output as part of the ticket dialogue).
  577.  
  578.       11) GRAPHICS/REPORT Capability.  Statistical and graphical
  579.       displays about trouble ticket data need to be compatible with
  580.       tools used to generate reports, news letters, etc.
  581.  
  582. OTHER CONSIDERATIONS:
  583.  
  584.       1) INTERACTIVE SPEED.  The system must be fast enough to be used
  585.       interactively.  NetOps need to answer questions over the phone in
  586.       real time; good answers cannot be given if every query takes a
  587.       couple of minutes.  More importantly, the NetOps need the trouble
  588.       ticket system in order to get information necessary to fix the
  589.       network.  If looking for old or currently-open tickets takes more
  590.       than a few seconds, it won't be done.  If updates take very long
  591.       to make, then updates won't be recorded, or they will be recorded
  592.       long after the event (with corresponding loss of accuracy).  (Our
  593.       Operators have asked for a single-line "update this ticket with
  594.       this message" utility that would let them avoid even retrieving
  595.       the ticket for simple updates!)  Any time spent waiting reduces
  596.       NetOp productivity and Network reliability.
  597.  
  598.       2) BACKUPS AND RELIABILITY.  The trouble ticket system is
  599.       absolutely crucial to both immediate and long-term operation of
  600.       the NOC.  Good systems could back up all data several times an
  601.       hour to an auxiliary processor.  That processor should be
  602.       accessible for immediate use in case of failure of the primary
  603.       system.
  604.  
  605.       3) HISTORY AND ARCHIVING.  A trouble ticket system is a
  606.       constantly-growing database system.  Old tickets need to be
  607.       removed from the system at some interval (a year?  several years?)
  608.       and archived.  These archives should also be restorable for long-
  609.       term history processing.
  610.  
  611.       4) PRIVACY AND SECURITY.  The ability to enter, append, and modify
  612.       tickets should be controlled by id and password.  Permissions
  613.       should be specifiable on a per-field basis.  General read access
  614.       to tickets (or portions of tickets) also needs to be restricted,
  615.  
  616.  
  617.  
  618. Johnson                                                        [Page 11]
  619.  
  620. RFC 1297                  NOC TT REQUIREMENTS               January 1992
  621.  
  622.  
  623.       or else NetOps will be reluctant to be full and candid in their
  624.       reporting.
  625.  
  626. UTILITY
  627.  
  628.    There are quite a few ideas in this "Wishlist".  Ultimately, what an
  629.    Operations Center needs is a totally integrated set of tools which
  630.    completely model all of its activities, and which integrates cleanly
  631.    with all backup, peer, and vendor NOCs.  It is hard to imagine that
  632.    this whole system could come out of a shrinkwrapped box, even without
  633.    the local configuration.  But most of these facilities do exist, now,
  634.    in some system.  Hopefully, this document will foster an ongoing
  635.    discussion of ways in which NOC operator-level tools are used in real
  636.    operations, and will encourage systems implementors and vendors to
  637.    bring some of this functionality to the aid of real operations.  It
  638.    might even inspire current Operations Centers to add useful features
  639.    to their current operations.
  640.  
  641. Security Considerations
  642.  
  643.    This paper does not pose specific new security issues.  The systems
  644.    described herein would be host database applications, however, or
  645.    even distributed host database applications.  All of the normal
  646.    security considerations for that kind of system would apply.
  647.    Multiple classes of user access need to be specified for classes of
  648.    ticket data.  Possible security threats include disclosure of network
  649.    information, disclosure of confidential material (e.g., circuit
  650.    numbers or home phone numbers), and denial of service to the Network
  651.    Operations Center leading to degradation of network service.
  652.  
  653. Author's Address
  654.  
  655.    Dale S. Johnson
  656.    Merit NOC
  657.    1075 Beal Avenue
  658.    Ann Arbor, MI 48109-2112
  659.  
  660.    Phone:  (313) 936-2270
  661.  
  662.    Email:  dsj@merit.edu
  663.  
  664.    Discussion/comments may be sent to noc-tt-req@merit.edu.  The list
  665.    is maintained by noc-tt-req-request@merit.edu.
  666.  
  667.  
  668.  
  669.  
  670.  
  671.  
  672.  
  673.  
  674. Johnson                                                        [Page 12]
  675.